自适应实验可以增加当前学生从教学干预的现场实验中获得更好结果的机会。在此类实验中,在收集更多数据时将学生分配到条件变化的可能性,因此可以将学生分配给可能表现更好的干预措施。数字教育环境降低了进行此类适应性实验的障碍,但很少在教育中应用。原因之一可能是研究人员可以访问很少的现实案例研究,这些案例研究说明了在特定情况下这些实验的优势和缺点。我们通过使用Thompson采样算法进行自适应实验来评估学生在学生中提醒的效果,并将其与传统的统一随机实验进行比较。我们将其作为有关如何进行此类实验的案例研究,并提出了有关自适应随机实验可能或多或少有用的条件的一系列开放问题。
translated by 谷歌翻译
多模式知识图(MKG)不仅包括关系三重态,还包括相关的多模式辅助数据(即文本和图像),从而增强了知识的多样性。然而,自然的不完整严重阻碍了MKG的应用。为了解决该问题,现有研究采用基于嵌入的推理模型来融合多模式特征后推断缺失的知识。但是,由于以下问题,这些方法的推理性能受到限制:(1)多模式辅助特征的无效融合; (2)缺乏复杂的推理能力以及无法进行多跳的推理,该推理能够推断出更多的知识。为了克服这些问题,我们提出了一个名为MMKGR(多模式知识图推理)的新型模型。具体而言,该模型包含以下两个组件:(1)统一的栅极注意网络,旨在通过充分的注意力相互作用和降低噪声来生成有效的多模式互补特征; (2)一种补充特征感知的增强学习方法,该方法根据组件(1)中获得的特征,通过执行多跳的推理过程来预测丢失元素。实验结果表明,MMKGR在MKG推理任务中的最新方法优于最先进的方法。
translated by 谷歌翻译
本文简要概述了我们提交给Sapien Maniskill Challenge 2021的无互动轨道的提交。我们的方法遵循端到端管道,主要由两个步骤组成:我们首先提取多个对象的点云特征;然后,我们采用这些功能来通过基于深层变压器的网络来预测机器人模拟器的动作分数。更特别的是,为未来的工作提供指导,以开放剥削学习操纵技能的途径,我们提出了一项经验研究,其中包括一袋技巧和流产的尝试。最后,我们的方法在排行榜上获得了有希望的排名。我们解决方案的所有代码均可在https://github.com/liu6666666/bigfish \ _codes上获得。
translated by 谷歌翻译
利用在大规模图像文本对中预先训练的视觉和语言模型(VLM)成为开放式视觉识别的有希望的范式。在这项工作中,我们通过利用视频中自然存在的运动和音频来扩展这种范式。我们提出\ textbf {mov},这是\ textbf {m} ult-imodal \ textbf {o} pen- \ textbf {v} ocabulary视频分类的简单而有效的方法。在MOV中,我们直接使用具有最小修改的预训练VLM的视觉编码器来编码视频,光流和音频频谱图。我们设计一种跨模式融合机制来汇总免费的多模式信息。 Kinetics-700和VGGSOUND的实验表明,引入流量或音频模态会带来预先训练的VLM和现有方法的大量性能增长。具体而言,MOV极大地提高了基础类别的准确性,而在新颖的课程上则更好地概括了。 MOV在UCF和HMDB零摄像视频分类基准上实现了最新结果,从而极大地超过了基于VLMS的传统零摄像方法和最新方法。代码和模型将发布。
translated by 谷歌翻译
本文介绍了一种通过张量 - 训练(TT)分解来更紧凑地表示图形神经网络(GNN)表的新方法。我们考虑(a)缺乏节点特征的图形数据,从而在训练过程中学习嵌入的情况; (b)我们希望利用GPU平台,即使对于大型内存GPU,也需要较小的桌子来减少主机到GPU的通信。 TT的使用实现了嵌入的紧凑参数化,使其足够小,甚至可以完全适合现代GPU,即使是大量图形。当与明智的初始化和分层图分区结合使用时,这种方法可以将嵌入矢量的大小降低1,659次,至81,362次,在大型公开可用的基准数据集中,可以实现可比性或更高的准确性或更高的准确性和在多GPU系统上的显着速度。在某些情况下,我们的模型在输入上没有明确的节点功能甚至可以匹配使用节点功能的模型的准确性。
translated by 谷歌翻译
现有视觉语言预训练(VLP)方法主要依赖于配对的图像文本数据集,这些数据集由大量人类劳动注释,或者从互联网上爬行,然后是精心制作的数据清洁技术。为了减少对良好的图像文本对的依赖,有望直接利用仅大规模的仅文本和仅图像的语料库。本文提出了一种数据增强方法,即跨模式cutmix(CMC),用于在未配对的VLP中进行隐式跨模式对齐学习。具体而言,CMC将自然句子从文本视图转换为多模式视图,在该视图中,句子中的视觉词语单词被带有相似语义的各种图像贴片随机替换。拟议中的CMC有几个吸引人的礼节。首先,它增强了数据多样性,同时保持语义含义完好无损地解决了对齐数据稀缺的问题;其次,通过将跨模式噪声连接到单模式数据上,它指导模型以学习跨模态的令牌级相互作用,以更好地降级。此外,我们提出了一种名为VLMIXER的新的未配对VLP方法,该方法将CMC与对比度学习集成在一起,以将Uni-Mododal和多模式视图汇总在一起,以在不同模式之间进行更好的实例级别对齐。在五个下游任务上进行的广泛实验表明,VLMIXER可以超过以前最先进的未配对VLP方法。
translated by 谷歌翻译
本文旨在为多尺度帧卷积提供一种新颖的光谱图神经网络设计。在光谱范例中,光谱GNN通过提出频谱域中的各种光谱滤波器来提高图形学习任务性能,以捕获全局和本地图形结构信息。虽然现有的光谱方法在某些图表中显示出卓越的性能,但是当图表信息不完整或扰乱时,它们患有缺乏灵活性并脆弱。我们的新帧卷曲卷积包括直接在光谱域中设计的过滤功能,以克服这些限制。所提出的卷积在切断光谱信息中表现出具有很大的灵活性,并有效地减轻了噪声曲线图信号的负效应。此外,为了利用现实世界图数据中的异质性,具有我们新的帧卷积的异构图形神经网络提供了一种用于将元路径的内在拓扑信息与多级图分析嵌入的解决方案。进行了扩展实验实现了具有嘈杂节点特征和卓越性能结果的设置下的现实异构图和均匀图。
translated by 谷歌翻译
通过提取和利用来自异构信息网络(HIN)的高阶信息的提取和利用模拟异质性,近年来一直在吸引巨大的研究关注。这种异构网络嵌入(HNE)方法有效地利用小规模旋流的异质性。然而,在现实世界中,随着新节点和不同类型的链路的连续引入,何种素数量呈指数级增长,使其成为十亿尺度的网络。在这种关链接上的学习节点嵌入式为现有的HNE方法进行了性能瓶颈,这些方法通常是集中的,即完成数据,并且模型都在单机上。为了满足强大的效率和有效性保障的大型HNE任务,我们呈现\纺织{分散嵌入框架的异构信息网络}(Dehin)。在Dehin中,我们生成一个分布式并行管道,它利用超图来注入到HNE任务中的并行化。 Dehin呈现了一种上下文保留的分区机制,可创新地将大HIN作为超图制定,其超高频连接语义相似的节点。我们的框架然后采用分散的策略来通过采用类似的树形管道来有效地分隔帖。然后,每个结果的子网被分配给分布式工作人员,该工作者采用深度信息最大化定理,从其接收的分区本地学习节点嵌入。我们进一步设计了一种新颖的嵌入对准方案,将独立学习的节点嵌入从所有子网嵌入到公共向量空间上的新颖嵌入对准方案,从而允许下游任务等链路预测和节点分类。
translated by 谷歌翻译
通过对齐跨模型自动化器的潜在空间来学习共同的潜在嵌入是广义零拍分类(GZSC)的有效策略。然而,由于缺乏细粒度的实例 - 明智的注释,它仍然很容易遭受域移位问题,用于多样化图像的视觉表示与固定属性的语义表示之间的差异。在本文中,我们通过学习对齐的跨模型表示(称为ACMR)来提出创新的AutoEncoder网络,用于GZSC。具体地,我们提出了一种新的视觉 - 语义对准(VSA)方法,以加强由学习分类器引导的潜在子空间上的交叉模态潜在特征的对准。此外,我们提出了一种新颖的信息增强模块(IEM),以减少潜在变量折叠的可能性同时鼓励潜在变量的判别能力。公开数据集的广泛实验证明了我们方法的最先进的性能。
translated by 谷歌翻译
我们向连续状态马尔可夫决策过程(MDP)提出了一种扩散近似方法,该方法可用于解决非结构化的越野环境中的自主导航和控制。与呈现完全已知的状态转换模型的大多数决策定理计划框架相比,我们设计了一种方法,该方法消除了这种强烈假设,这些假设通常非常难以在现实中工程师。我们首先采用价值函数的二阶泰勒扩展。然后通过部分微分方程近似贝尔曼的最优性方程,其仅依赖于转换模型的第一和第二矩。通过组合价值函数的内核表示,然后设计一种有效的策略迭代算法,其策略评估步骤可以表示为特征的方程式的线性系统,其特征是由有限组支持状态。我们首先通过大量的仿真以2D美元的$ 2D $避让和2.5d $地形导航问题进行验证。结果表明,拟议的方法在几个基线上导致了卓越的性能。然后,我们开发一个系统,该系统将我们的决策框架整合,与船上感知,并在杂乱的室内和非结构化的户外环境中进行现实世界的实验。物理系统的结果进一步展示了我们在挑战现实世界环境中的方法的适用性。
translated by 谷歌翻译